本文提出了有条件生成对抗性网络(CGANS)的两个重要贡献,以改善利用此架构的各种应用。第一个主要贡献是对CGANS的分析表明它们没有明确条件。特别地,将显示鉴别者和随后的Cgan不会自动学习输入之间的条件。第二种贡献是一种新方法,称为逆时针,该方法通过新颖的逆损失明确地模拟了对抗架构的两部分的条件,涉及培训鉴别者学习无条件(不利)示例。这导致了用于GANS(逆学习)的新型数据增强方法,其允许使用不利示例将发电机的搜索空间限制为条件输出。通过提出概率分布分析,进行广泛的实验以评估判别符的条件。与不同应用的CGAN架构的比较显示了众所周知的数据集的性能的显着改进,包括使用不同度量的不同度量的语义图像合成,图像分割,单眼深度预测和“单个标签” - 图像(FID) ),平均联盟(Miou)交叉口,根均线误差日志(RMSE日志)和统计上不同的箱数(NDB)。
translated by 谷歌翻译
本文解决了深度和自我运动的端到端自我监督预测的问题。给定一系列原始图像,其目的是通过自我监督的光度损失预测几何和自我运动。该体系结构是使用卷积和变压器模块设计的。这利用了两个模块的好处:CNN的电感偏置和变压器的多头注意力,从而实现了丰富的时空表示,从而实现了准确的深度预测。先前的工作尝试使用多模式输入/输出使用有监督的地面真实数据来解决此问题,这是不实际的,因为需要大量注释的数据集。另外,本文仅使用自我监督的原始图像作为输入来预测深度​​和自我运动。该方法在KITTI数据集基准上表现出色,几个性能标准甚至可以与先前的非预测自我监督的单眼深度推理方法相提并论。
translated by 谷歌翻译
本文提出了一个自我监督的单眼图像对深度预测框架,该框架经过端到端光度损失的训练,不仅可以处理6-DOF摄像机运动,还可以处理6-DOF移动对象实例。自学是通过使用深度和场景运动(包括对象实例)在视频序列上扭曲图像来执行的。提出方法的一种新颖性是使用变压器网络的多头注意力,该注意与随时间匹配移动对象并建模其相互作用和动力学。这可以为每个对象实例实现准确稳健的姿势估计。大多数图像到深度的谓词框架都可以假设刚性场景,从而在很大程度上降低了它们相对于动态对象的性能。只有少数SOTA论文说明了动态对象。所提出的方法显示出在标准基准上胜过这些方法,而动态运动对这些基准测试的影响也暴露出来。此外,所提出的图像到深度预测框架也被证明与SOTA视频对深度预测框架具有竞争力。
translated by 谷歌翻译